3. oktoober 2025Eesti

Avastage loomuliku keeletöötluse põhimõisteid meie põhjaliku juhendiga N-grammi keelemudelite nullist rakendamiseks. Õppige teooriat, koodi ja praktilisi rakendusi.

NLP aluste ehitamine: põhjalik sukeldumine N-grammi keelemudeli rakendamisse

Tehisintellekti domineeritud ajastul, alates nutikatest assistentidest meie taskutes kuni keerukate algoritmideni, mis toetavad otsingumootoreid, on keelemudelid nähtamatud mootorid, mis paljusid neist uuendustest käivitavad. Need on põhjus, miks teie telefon suudab ennustada järgmist sõna, mida soovite trükkida, ja kuidas tõlketeenused saavad sujuvalt ühte keelt teise teisendada. Kuid kuidas need mudelid tegelikult töötavad? Enne keerukate närvivõrkude, nagu GPT, esilekerkimist ehitati arvutilingvistika vundament kaunilt lihtsale, kuid võimsale statistilisele lähenemisviisile: N-grammi mudel.

See põhjalik juhend on mõeldud andmeteadlastele, tarkvarainseneridele ja uudishimulikele tehnikahuvilistele üle kogu maailma. Me rändame tagasi juurte juurde, demüstifitseerides N-grammi keelemudelite teooriat ja pakkudes praktilist, samm-sammult juhendit, kuidas seda nullist üles ehitada. N-grammide mõistmine ei ole lihtsalt ajalootund; see on oluline samm tugeva vundamendi loomisel loomuliku keeletöötluse (NLP) valdkonnas.

Mis on keelemudel?

Põhimõtteliselt on keelemudel (LM) tõenäosusjaotus sõnade jada üle. Lihtsamalt öeldes on selle peamine ülesanne vastata põhiküsimusele: Arvestades sõnade jada, milline on kõige tõenäolisem järgmine sõna?

Mõelge lausele: "Õpilased avasid oma ___."

Hästi treenitud keelemudel omistaks suure tõenäosuse sõnadele nagu "raamatud", "sülearvutid" või "mõtted" ning äärmiselt madala, peaaegu nullilähedase tõenäosuse sõnadele nagu "fotosüntees", "elevandid" või "maantee". Sõnajadade tõenäosuse kvantifitseerimise abil võimaldavad keelemudelid masinatel inimkeelt sidusalt mõista, genereerida ja töödelda.

Nende rakendused on laialdased ja integreeritud meie igapäevasesse digitaalsesse ellu, sealhulgas:

Masintõlge: Tagab, et väljundlause on sihtkeeles sujuv ja grammatiliselt korrektne.
Kõnetuvastus: Eristab foneetiliselt sarnaseid fraase (nt "recognize speech" vs. "wreck a nice beach").
Ennustav tekst ja automaatne lõpetamine: Soovitab järgmist sõna või fraasi tippimise ajal.
Õigekirja ja grammatika parandus: Tuvastab ja märgistab sõnajadasid, mis on statistiliselt ebatõenäolised.

Tutvustame N-gramme: Põhimõiste

N-gramm on lihtsalt 'n' üksuse pidev jada antud tekstiproovist või kõnest. 'Üksused' on tavaliselt sõnad, kuid need võivad olla ka tähed, silbid või isegi foneemid. 'n' N-grammis tähistab numbrit, mis viib konkreetsete nimedeni:

Unigramm (n=1): Üksik sõna. (nt "The", "quick", "brown", "fox")
Bigramm (n=2): Kahe sõna jada. (nt "The quick", "quick brown", "brown fox")
Trigramm (n=3): Kolme sõna jada. (nt "The quick brown", "quick brown fox")

N-grammi keelemudeli põhiline idee on see, et me saame ennustada järgmist sõna jadas, vaadates 'n-1' sõna, mis sellele eelnesid. Selle asemel, et püüda mõista lause täielikku grammatilist ja semantilist keerukust, teeme lihtsustava eelduse, mis vähendab dramaatiliselt probleemi raskusastet.

N-grammide matemaatika: Tõenäosus ja lihtsustamine

Lause (sõnade jada W = w₁, w₂, ..., wₖ) tõenäosuse ametlikuks arvutamiseks saame kasutada tõenäosuse ahelreeglit:

P(W) = P(w₁) * P(w₂|w₁) * P(w₃|w₁, w₂) * ... * P(wₖ|w₁, ..., wₖ₋₁)

See valem väidab, et kogu jada tõenäosus on iga sõna tingimuslike tõenäosuste korrutis, arvestades kõiki sõnu, mis sellele eelnesid. Kuigi matemaatiliselt on see usaldusväärne, on see lähenemisviis ebapraktiline. Sõna tõenäosuse arvutamine, arvestades pikka eelnevate sõnade ajalugu (nt P(sõna | "The quick brown fox jumps over the lazy dog and then...")), nõuaks usaldusväärse hinnangu andmiseks uskumatult suurt hulka tekstilisi andmeid, et leida piisavalt näiteid.

Markovi eeldus: Praktiline lihtsustamine

Siin tutvustavad N-grammi mudelid oma kõige olulisemat kontseptsiooni: Markovi eeldus. See eeldus väidab, et sõna tõenäosus sõltub ainult kindlast arvust eelmistest sõnadest. Me eeldame, et vahetu kontekst on piisav ja me saame kaugema ajaloo kõrvale jätta.

Bigrammi mudeli (n=2) puhul eeldame, et sõna tõenäosus sõltub ainult ühest eelnevast sõnast:
P(wᵢ | w₁, ..., wᵢ₋₁) ≈ P(wᵢ | wᵢ₋₁)
Trigrammi mudeli (n=3) puhul eeldame, et see sõltub kahest eelnevast sõnast:
P(wᵢ | w₁, ..., wᵢ₋₁) ≈ P(wᵢ | wᵢ₋₁, wᵢ₋₂)

See eeldus muudab probleemi arvutuslikult juhitavaks. Me ei pea enam nägema sõna täpset täielikku ajalugu, et arvutada selle tõenäosust, vaid ainult viimast n-1 sõna.

N-grammi tõenäosuste arvutamine

Kuidas me Markovi eelduse korral neid lihtsustatud tõenäosusi arvutame? Me kasutame meetodit nimega Maksimaalse tõepära hinnang (MLE), mis on uhke viis öelda, et me saame tõenäosused otse oma treeningteksti (korpus) loendustest.

Bigrammi mudeli puhul arvutatakse sõna wᵢ tõenäosus, mis järgneb sõnale wᵢ₋₁, järgmiselt:

P(wᵢ | wᵢ₋₁) = Count(wᵢ₋₁, wᵢ) / Count(wᵢ₋₁)

Sõnades: Sõna B nägemise tõenäosus pärast sõna A on arv kordi, kui me nägime paari "A B", jagatuna kordade arvuga, kui me nägime sõna "A" kokku.

Kasutame näitena pisikest korpust: "The cat sat. The dog sat."

Count("The") = 2
Count("cat") = 1
Count("dog") = 1
Count("sat") = 2
Count("The cat") = 1
Count("The dog") = 1
Count("cat sat") = 1
Count("dog sat") = 1

Mis on "cat" tõenäosus pärast "The"?
P("cat" | "The") = Count("The cat") / Count("The") = 1 / 2 = 0,5

Mis on "sat" tõenäosus pärast "cat"?
P("sat" | "cat") = Count("cat sat") / Count("cat") = 1 / 1 = 1,0

Samm-sammult nullist rakendamine

Nüüd tõlgime selle teooria praktiliseks rakenduseks. Me visandame sammud keeleagnostilisel viisil, kuigi loogika vastendub otse keeltega, nagu Python.

1. samm: Andmete eeltöötlus ja tokeniseerimine

Enne kui saame midagi loendada, peame oma tekstikorpus ette valmistama. See on kriitiline samm, mis kujundab meie mudeli kvaliteeti.

Tokeniseerimine: Protsess, mille käigus jagatakse tekstikogum väiksemateks üksusteks, mida nimetatakse tokeniteks (meie puhul sõnad). Näiteks "The cat sat." muutub kujule ["The", "cat", "sat", "."].
Väiketähtedeks teisendamine: On tavapärane praktika teisendada kogu tekst väiketähtedeks. See takistab mudelil kohtlemast "The" ja "the" kui kahte erinevat sõna, mis aitab meie loendusi koondada ja muuta mudeli vastupidavamaks.
Algus- ja lõputokenite lisamine: See on ülioluline tehnika. Me lisame iga lause algusesse ja lõppu spetsiaalseid tokeneid, nagu <s> (algus) ja </s> (lõpp). Miks? See võimaldab mudelil arvutada sõna tõenäosust lause alguses (nt P("The" | <s>)) ja aitab määratleda terve lause tõenäosust. Meie näitelause "the cat sat." muutuks kujule ["<s>", "the", "cat", "sat", ".", "</s>"].

2. samm: N-grammide loendamine

Kui meil on iga lause jaoks puhas tokenite loend, itereerime läbi oma korpuse, et saada loendused. Parim andmestruktuur selle jaoks on sõnastik või räsitabel, kus võtmed on N-grammid (esitatud tuple'itena) ja väärtused on nende sagedused.

Bigrammi mudeli puhul vajame kahte sõnastikku:

unigram_counts: Salvestab iga üksiku sõna sageduse.
bigram_counts: Salvestab iga kahesõnalise jada sageduse.

Te itereeriksite läbi oma tokeniseeritud laused. Lausesarnase lause ["<s>", "the", "cat", "sat", "</s>"] puhul teeksite järgmist:

Suurendage unigrammide loendust: "<s>", "the", "cat", "sat", "</s>".
Suurendage bigrammide loendust: ("<s>", "the"), ("the", "cat"), ("cat", "sat"), ("sat", "</s>").

3. samm: Tõenäosuste arvutamine

Kui meie loendussõnastikud on täidetud, saame nüüd ehitada tõenäosusmudeli. Me saame neid tõenäosusi salvestada teise sõnastikku või arvutada neid lennult.

P(word₂ | word₁) arvutamiseks peaksite hankima bigram_counts[(word₁, word₂)] ja unigram_counts[word₁] ning tegema jagamise. Hea tava on eelnevalt arvutada kõik võimalikud tõenäosused ja salvestada need kiireks otsimiseks.

4. samm: Teksti genereerimine (lõbus rakendus)

Suurepärane viis oma mudeli testimiseks on lasta sellel genereerida uut teksti. Protsess toimib järgmiselt:

Alustage esialgse kontekstiga, näiteks algustokeniga <s>.
Otsige üles kõik bigrammid, mis algavad <s> ja nende seotud tõenäosused.
Valige järgmine sõna juhuslikult selle tõenäosusjaotuse alusel (kõrgemate tõenäosustega sõnad valitakse tõenäolisemalt).
Värskendage oma konteksti. Äsja valitud sõnast saab järgmise bigrammi esimene osa.
Korrake seda protsessi, kuni genereerite lõputokeni </s> või saavutate soovitud pikkuse.

Lihtsa N-grammi mudeli genereeritud tekst ei pruugi olla täiesti sidus, kuid see toodab sageli grammatiliselt usutavaid lühikesi lauseid, mis näitavad, et see on õppinud põhilisi sõna-sõna suhteid.

Hõreduse väljakutse ja lahendus: Silumine

Mis juhtub, kui meie mudel puutub testimise ajal kokku bigrammiga, mida ta treenimise ajal kunagi ei näinud? Näiteks kui meie treeningkorpus ei sisaldanud kunagi fraasi "the purple dog", siis:

Count("the", "purple") = 0

See tähendab, et P("purple" | "the") oleks 0. Kui see bigramm on osa pikemast lausest, mida me püüame hinnata, muutub kogu lause tõenäosus nulliks, sest me korrutame kõik tõenäosused kokku. See on null-tõenäosuse probleem, andmete hõreduse ilming. On ebareaalne eeldada, et meie treeningkorpus sisaldab kõiki võimalikke kehtivaid sõnakombinatsioone.

Selle lahendus on silumine. Silumise põhiline idee on võtta väike kogus tõenäosusmassi N-grammidelt, mida oleme näinud, ja jaotada see N-grammidele, mida me kunagi ei ole näinud. See tagab, et ühelgi sõnajadal ei ole täpselt nullist erinevat tõenäosust.

Laplace'i (lisa-üks) silumine

Lihtsaim silumistehnika on Laplace'i silumine, tuntud ka kui lisa-üks silumine. Idee on uskumatult intuitiivne: teeselda, et oleme näinud iga võimalikku N-grammi üks kord rohkem, kui me tegelikult tegime.

Valem tõenäosuse jaoks muutub veidi. Me lisame lugeja loendusele 1. Veendumaks, et tõenäosused summeeruvad endiselt 1-ni, lisame nimetajale kogu sõnavara suuruse (V).

P_laplace(wᵢ | wᵢ₋₁) = (Count(wᵢ₋₁, wᵢ) + 1) / (Count(wᵢ₋₁) + V)

Plussid: Väga lihtne rakendada ja tagab, et nulltõenäosusi ei ole.
Miinused: See annab sageli liiga palju tõenäosust nähtamatutele sündmustele, eriti suurte sõnavarade puhul. Sel põhjusel toimib see praktikas sageli kehvalt võrreldes keerukamate meetoditega.

Lisa-k silumine

Väike parandus on Lisa-k silumine, kus 1 lisamise asemel lisame väikese murdarvulise väärtuse 'k' (nt 0,01). See leevendab liiga suure tõenäosusmassi ümberjaotamise mõju.

P_add_k(wᵢ | wᵢ₋₁) = (Count(wᵢ₋₁, wᵢ) + k) / (Count(wᵢ₋₁) + k*V)

Kuigi parem kui lisa-üks, võib optimaalse 'k' leidmine olla väljakutse. Keerukamad tehnikad, nagu Good-Turingi silumine ja Kneser-Ney silumine, on olemas ja on standardsed paljudes NLP tööriistakomplektides, pakkudes palju keerukamaid viise nähtamatute sündmuste tõenäosuse hindamiseks.

Keelemudeli hindamine: Perpleksus

Kuidas me teame, kas meie N-grammi mudel on hea? Või kas trigrammi mudel on meie konkreetse ülesande jaoks parem kui bigrammi mudel? Me vajame hindamiseks kvantitatiivset mõõdikut. Kõige tavalisem mõõdik keelemudelite jaoks on perpleksus.

Perpleksus on mõõdik selle kohta, kui hästi tõenäosusmudel ennustab valimit. Intuitiivselt võib seda pidada mudeli kaalutud keskmiseks hargnemisfaktoriks. Kui mudeli perpleksus on 50, tähendab see, et iga sõna puhul on mudel sama segaduses, kui tal tuleks valida ühtlaselt ja sõltumatult 50 erineva sõna hulgast.

Madalam perpleksuse skoor on parem, kuna see näitab, et mudel on testandmete poolt vähem "üllatunud" ja omistab tegelikult nähtavatele jadadele suuremaid tõenäosusi.

Perpleksus arvutatakse testikomplekti pöördtõenäosusena, normaliseerituna sõnade arvuga. Lihtsama arvutuse jaoks esitatakse seda sageli logaritmilisel kujul. Hea ennustusvõimega mudel omistab testlausetele kõrged tõenäosused, mille tulemuseks on madal perpleksus.

N-grammi mudelite piirangud

Vaatamata nende põhilisele tähtsusele on N-grammi mudelitel olulisi piiranguid, mis on suunanud NLP valdkonna keerukamate arhitektuuride poole:

Andmete hõredus: Isegi silumise korral plahvatab suurema N (trigrammid, 4-grammid jne) puhul võimalike sõnakombinatsioonide arv. Enamiku neist jaoks muutub usaldusväärsete tõenäosuste hindamiseks piisavalt andmete olemasolu võimatuks.
Salvestusruum: Mudel koosneb kõigist N-grammi loendustest. Kui sõnavara ja N kasvavad, võib nende loenduste salvestamiseks vajalik mälu muutuda tohutuks.
Võimetus tabada pikaajalisi sõltuvusi: See on nende kõige kriitilisem viga. N-grammi mudelil on väga piiratud mälu. Näiteks ei saa trigrammi mudel ühendada sõna teise sõnaga, mis ilmus rohkem kui kaks positsiooni enne seda. Mõelge sellele lausele: "The author, who wrote several best-selling novels and lived for decades in a small town in a remote country, speaks fluent ___." Trigrammi mudel, mis üritab ennustada viimast sõna, näeb ainult konteksti "speaks fluent". Tal ei ole teadmisi sõnast "author" või asukohast, mis on olulised vihjed. See ei suuda tabada kaugete sõnade semantilist suhet.

Enamat kui N-grammid: Närvikeelemudelite koit

Need piirangud, eriti võimetus käsitleda pikaajalisi sõltuvusi, sillutasid teed närvikeelemudelite arendamisele. Arhitektuurid, nagu rekurrentsed närvivõrgud (RNN), pikaajalise lühimälu võrgud (LSTM) ja eriti nüüd domineerivad Transformerid (mis toetavad mudeleid nagu BERT ja GPT), olid loodud nende konkreetsete probleemide ületamiseks.

Hõredate loenduste asemel õpivad närvimudelid sõnade tihedaid vektorite kujutisi (manused), mis tabavad semantilisi suhteid. Nad kasutavad sisemisi mälumehhanisme, et jälgida konteksti palju pikemate jadade jooksul, võimaldades neil mõista inimkeeles peituvaid keerulisi ja pikaajalisi sõltuvusi.

Järeldus: NLP alus Sammas

Kuigi kaasaegses NLP-s domineerivad laiaulatuslikud närvivõrgud, jääb N-grammi mudel asendamatuks õppetööriistaks ja üllatavalt tõhusaks baastasemeks paljude ülesannete jaoks. See pakub selge, tõlgendatava ja arvutuslikult tõhusa sissejuhatuse keelemudeli põhiväljakutsesse: minevikust saadud statistiliste mustrite kasutamine tuleviku ennustamiseks.

Ehitades N-grammi mudeli nullist, saate sügava, esimese põhimõtte arusaama tõenäosusest, andmete hõredusest, silumisest ja hindamisest NLP kontekstis. See teadmine ei ole lihtsalt ajalooline; see on kontseptuaalne aluskivi, millele on ehitatud kaasaegse tehisintellekti kõrguvad pilvelõhkujad. See õpetab teid mõtlema keelele kui tõenäosuste jadale – perspektiiv, mis on oluline iga keelemudeli valdamiseks, olenemata sellest, kui keeruline see on.